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Résumé Dans cet article nous décrivons une approche pour la reconnaissance automatique de 
la parole (RAP) non native. Nous proposons deux méthodes pour l'adaptation d'un système 
de reconnaissance automatique de la parole (SRAP) existant. La première se base sur la mo- 
dification des modèles acoustiques par l'intégration des modèles de la langue maternelle (LM). 
Les phonèmes de la langue parlée (LP) sont prononcés d'une manière proche des phonèmes 
de la LM du locuteur. Nous proposons de "fusionner" les modèles de ces phonèmes confondus 
de manière à ce que le système puisse reconnaître les deux prononciations concurrentes. La 
deuxième approche que nous proposons une détection d'erreurs de prononciation plus précises 
en introduisant des contraintes graphémiques à ce processus. En effet, certaines réalisations 
phonétiques non natives sont fortement guidées par la graphie des mots. Les améliorations de 
performances du SRAP adapté selon notre approche sont en moyenne de 22.5% en taux de 
phrases correctes et 34.5% en taux de mots corrects. 

Mots clés Reconnaissance de la parole non native, confusion phonétique, modification de 
HMM, contraintes graphémiques. 



1 Introduction 



La RAP est de plus en plus utilisée dans plusieurs services grand public tels que les 
centres d'appels et les centres de billeteries. Cela est dû au développement des technologies 
utilisées et à la maturation des méthodes de reconnaissance de la parole. Toutefois, ce type 
de services peut être confrontés à des utilisateurs dont la langue maternelle n'est pas celle 
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pour laquelle le SRAP a été conçu. Dans de telles circonstances, le bon fonctionnement du 
système pourrait être corrompu. En effet, face à de la parole non native, les performance des 
SRAP chutent grandement. 

Les langues parlées utilisent un nombre limité de sons de ^H'espace phonétique (ou l'es- 
pace des sons possibles). Cet ensemble de sons est spécifique à chaque langage et diffère en 
nombre de phonèmes d'une langue à une autre. En effet, pour chaque langue, une partie de 
l'espace phonétique est partitionnée en un certain nombre de domaines correspondant cha- 
cun à un son (ou phonème) particulier. Les locuteurs d'une certaine langue sont accoutumés 
à bien reconnaître les sons propres à leur langage et à les prononcer correctement au sein 
de ces ^''frontières phonétiques". Ce partitionnement de l'espace phonétique est fonction de 
la langue considérée dans la mesure oti seule une partie de cet espace est utilisée. De ce fait, 
certains phonèmes d'une langue peuvent ne pas apparaître dans une autre. Un locuteur non 
natif pourrait remplacer ces phonèmes inexistants dans sa langue maternelle par des sons 
de cette dernière qu'il considère proches. Par exemple, selon les travaux de Ladefoged et 
al. [1] et Jeffers et al. [3], une grande partie de locuteurs grecs prononcent le phonème /h/ 
(présent dans le mot anglais hôtel) comme le son [x] (présent dans le mot allemand bach). 
Les diphtongues anglaises telles que [ai] constitueraient un autre exemple : elle n'existent 
pas dans la langue française et sont prononcées comme la suite de phonèmes français [a][i]. 
De plus, certains phonèmes très proches (de point de vue acoustique) d'une langue peuvent 
être assimilés à un même son dans une autre. Ainsi les sons du français présents dans brin 
et brun peuvent être confondus par un locuteur non natif et prononcés de la même manière. 

Les SRAP sont généralement basés sur des méthodes statistiques et entraînés sur des 
bases de données de parole native. Par conséquents, les SRAP traditionnels ne gèrent pas les 
accents non natifs et leurs performances chutent face à ces prononciations exotiques. L'adap- 
tation des SRAP à la parole non native consiste à augmenter leur tolérance vis-à-vis des ces 
accents étrangers. Plusieurs techniques ont déjà été développées pour la reconnaissance de 
ces accents non natifs. Elle diffèrent en fonction de la méthodologie adoptée pour la définition 
des accents non natifs (assimilés à des erreurs de prononciation) ainsi qu'en fonction des mo- 
difications introduites dans le SRAP par la suite. Les accents étrangers peuvent être définis 
à travers l'expertise de spécialistes humains comme dans l'approche décrite dans [7]. Ces 
erreurs de prononciation peuvent également être détectés automatiquement via une recon- 
naissance phonétique sur une base de données de parole non-native. Dans les travaux de |5|6j . 
le SRAP de la LP fournit un alignement phonétique de la prononciation canonique sur la 
base de données tandis que le SRAP de la LM est fournit une transcription phonétique (re- 
connaissance phonétique). Les deux transcriptions sont ensuite alignées afin de détecter les 
erreurs de prononcation et établir une matrice de confusion phonétique. 
Les modifications apportées au SRAP peuvent être appliquées en différents de la structure 
de ce derniers. En effet, les approches de |7|5] introduisent les différentes prononciations non 
natives dans le dictionnaire du SRAP. J. Morgan [6] fusionne les modèles acoustiques des 
phonèmes de la LP et de la LM qui ont été mis en relation dans la matrice de confusion. 
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Dans cet article nous décrire notre approche pour la reconnaissance de la parole non 
native introduite dans [l,2j . Dans la section [2] nous allons aborder la détection des erreurs de 
prononciation des locuteurs non natifs ainsi que l'adaptation du SRAP selon ces dernières. 
Nous aborderons, dans la section [3l les contraintes graphèmiques dans ces dites erreurs 
et nous décrirons notre approche pour leur utilisation. Nous allons ensuite décrire les tests 
effectués et nous discuterons leurs résulats. Nous clôturerons enfin avec une brève conclusion. 

2 Erreurs de prononciation 

Comme expliqué plus haut, les langues parlées utilisent des sons différents. Lorsqu'un 
locuteur prononce de la parole étrangère, il ne fait qu'imiter les intonnations et accents de la 
langue cible. Il prononce des sons de sa langue maternelle adaptés aux sonorités de la langue 
parlée. Dans le cas de figure oià certains sons à prononcer n'existent pas dans sa LM, un lo- 
cuteur peut imiter ce son ou encore le remplacer par un son de sa LM qu'il considère proche. 
C'est le cas du son anglais /h/ prononcé par des locuteurs grecs comme le phonème grec 
[x], ou encore le son anglais [9] prononcé par certain locuteurs français comme les phonèmes 
(français) [z] ou [s]. De plus, certain phonèmes de la LP peuvent être réalisés comme une 
suite de la LM comme c'est le cas pour les diphtongues anglaises n'existant pas dans la 
langue française. 

Nous avons donc considéré l'utilisation des modèles acoustiques de la LM des locuteurs 
non natifs dans l'extraction des erreurs de prononciation phonétique (confusion phonétique). 
Ainsi, un phonème de la LP peut être mal prononcé comme une ou plusieurs suites de 
phonèmes de la LM. Cette confusion phonétique est ensuite utilisée pour la modification 
du SRAP. Nous avons conçu une métode pour inclure toutes les prononciations non-natives 
possibles dans le SRAP tout en concervant l'intégrité temporelle des modèles acoutiques 
et minimisant les surcoûts de calculs pour la reconnaissance. Les modèles acoustiques des 
phonèmes de la LM (HMM : modèles de markov cahés) sont rajoutés comme des chemin 
alternatifs dans le modèle du phonème de la LP avec lequel ils ont été confondus. 

La figure [T] illustre les processus d'extraction et d'utilisation de la confusion phonétique. 
Nous allons décrire ces deux approches plus en profondeur dans les sections suivantes. 




Fig. 1. Extraction et utilisation de la confusion phonétique. 
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2.1 Détection des erreurs de prononciation 

Afin de déterminer les erreurs de prononciations des locuteurs non natifs d'une certaine 
origine, nous recourons à une base de données de parole non native étiquetées. Pour chaque 
phrase de cette base de données, nous efi^ectuons ce qui suit : 

- un alignement forcé avec le SRAP de la LP, ce qui donne une transcription phonétique 
en terme de phonèmes de la LP avec leurs intervalles d'occurrence. 

- une reconnaissance phonétique avec le SRAP de la LM, ce qui donne une transcription 
phonétique en terme de phonèmes de la LM avec leurs intervalles d'occurrence. 

- ces deux transcriptions sont comparée afin d'associer les phonèmes de la LP aux suites 
de phonèmes de la LM qui se produisent dans le même intervalle de temps. 

Nous obtenons ainsi, pour chaque phonème de la LP un ensemble d'associations (avec 
des suites de phonèmes de la LM) avec leurs nombres d'occurrences. Seules les associations 
les plus fréquentes -pour chaque phonème de la LP- sont retenues pour former l'ensemble 
des règles de confusion phonétique. 

2.2 Modification des modèles acoustiques 

Afin de prendre en compte de toutes les prononciations alternatives pour chaque phonème 
de la LP, nous adjoignons au HMM de P^ la concaténation des modèles des phonèmes 
présents dans les règles de confusion de P^ . En d'autres termes, les modèles HMM des 
phonèmesde chaque règle de confusion concernant P^ sont concaténés et ajoutés comme 
chemin alternatif dans le modèle de P^. Ce modèle modifié sera utilisé ultérieurement en 
lieu et place du modèle canonique de P^ dans le SRAP modifié. De ce fait, le moteur de 
reconnaissance aura la possibilité de reconnaître la prononciation canonique de P^ ainsi que 
toutes ses prononciations alternatives. 

Pour illustrer ce processus, considérons l'exemple de règles de confusion pour le phonème 
anglais [ai] où la LM est le français : 

[ai] ^ [a][e] P([ai] ^ [a][e]) = 0.4 

[ai] ^ [a][i] P([ai] ^ [a][i]) = 0.6 

Deux chemins additionnels sont rajouté au HMM du phonème [ai] correspondant aux 
deux règles précédentes : le chemin [a][e] et le chemin [a][i]. Le schémas du modèle adapté 
est donné dans la figure [2] (/3 est une pondération). 

3 Contraintes graphémiques 

L'utilisation des contraintes graphémiques est motivé par l'influence de la graphie des 
mots sur les erreurs de prononciation non native dans le cadre de la parole lue. En effet, 
nous avons constaté l'existance d'une relation entre les caractères composant les mots lue et 
les erreurs phonétiques produites par les locuteurs. Cela pourrait résulter des mécanismes 
de lectures de la langue maternelle pour des lettres séparées ou encore de la similitudes 
des constructions graphémiques entre la LP et la LM pour des mots entiers. Certains locu- 
teurs non natifs pourraient avoir recours aux règles de transformation graphème-phonème 
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ai 




Fig. 2. HMM adapté pour le phonème [ai]. 



de leur LM pour prononcer certains mots ou syllabes. Par exemple, le mot anglais mi- 
nus ([ni][ai][n][9][s]) a été prononcé comme [ni] [i] [n] [u] [s] par un locuteur italien. Les mots 
anglais approach ([9][p][i'][9u][tJ]) et position ([p][9][z][i][J][9][n]) ont été prononcé comme 
([a][p][r][3][t][J]) et ([p][3][z][i][.r][o][n]) par un locuteur français (respectivement). Dans le 
dernier exemple, le phonème [9] a été prononcé comme le phonème français [a] (resp. [o]) 
lorsqu'il correspond au caractère 'a' (resp. 'o'). 

Nous avons donc contraint les règles de confusion décrites plus haut par les caractères aux- 
quels sont reliés les phonèmes. Pour l'exemple précédent, le phonème 9 relié au charactère 'a' 
(resp. 'o') serait confondu avec le phonème [a] (resp. [o]). Pour ce faire, nous avons adopté une 
approche basée sur des HMM discrèts (DHMM) afin d'aligner les phonèmes et les graphèmes 
dans la prononciation de chaque mot du dictionnaire de notre application. Dans ce système, 
les états émétteurs représentent les phonèmes et les observations discrètes représentent les 
caractères. Ce système DHMM est entraîné sur un grand dictionnaire phonétique. 

4 Expérimentations et résutats 

4.1 Conditions expérimentatles 

Notre travail se situe dans le cadre d'un projet européen visant le développement d'un 
système d'aide pour les pilotes d'avions basé sur des commandes vocales. Pour nos tests, 
nous disposons d'une base de données de parole non native composée 31 locuteurs français, 
20 grecs, 20 italiens et 10 espagnols. Chacun de ses locuteurs a prononcé 100 pharses en 
langue anglaise. Ces phrases suivent une grammaire de commande stricte. Le vocabulaire 
est composé de 134 mots. Nous avons utilisé le système de reconnaissance HTK pour nos 
expérimentations. Les modèles acoustiques sont des HMM à 3 états gauche-droite avec des 
mixture de 128 Gaussiennes. 
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4.2 Tests et résulats 



Nous avons adopté la méthode de validation croisée dans nos tests (cross-validation, 
leave-one-out) . Afin de terter un locuteur donnée d'une origine X, le reste des locuteurs 
originaires de X sont utilisés pour l'extraction des règles de confusion. Nous avons effectué 
des tests avec une grammaire stricte et une grammaire libre (boucle de mots). Nous avons 
également testé l'adaptation au locuteur avec la technique MLLR (Maximum Likelihood 
Linear Régression). Le tableau [T] résume les résultats obtenus. La confusion phonétique a 
permis une réduction du taux d'erreur de phrases (sentence error rate, SER) variant de 9% 
à 48% (relatif) et une réduction du taux d'erreur de mots (word error rate, WER) allant 
de 19% à 46% (relatif), et ce en utilisant la grammaire contrainte. Avec la grammaire libe, 
la réduction du taux SER varie de 6% à 49% et le taux WER est diminué d'une propor- 
tion allant de 20% à 33%. En moyenne, les taux SER et WER sont réduits de 34.5% et 22.5%. 

Il est intéressant de noter que l'utilisation des contraintes graphémiques a permis une 
meilleure perfromance du système avec la grammaire libre. Il est également important de 
noter que la confusion phonétique affiche des performances proches, sinon meilleures, que 
l'application de l'adaptation au locuteur (MLLR). Ceci est d'autant plus frappant dans le 
test de la grammaire libre oii l'on observer une différence relative moyenne de 23% sur le 
taux WER et 10% sur le taux SER. 

Tab. 1. Résultats de test pour les hases de données Françaises, Italienne, Espagnole et 
Grèque (en %). 





Français 


Italien 


Espagnol 


Grec 


Moyenne 


System 


WER 


SER 


WER 


SER 


WER 


SER 


WER 


SER 


WER 


SER 


grammaire stricte : 






















- baseline 


6.0 


12.8 


10.5 


19.6 


7.0 


14.9 


5.8 


13.2 


7.3 


15.1 


- "confusion phonétqiue" 


4.9 


11.7 


6.3 


13.0 


4.8 


10.9 


3.0 


7.8 


4.8 


10.8 


- "confusion phonétqiue" + 
contraintes graphémiques 


4.5 


11.1 


6.2 


13.2 


4.6 


10.3 


4.5 


11.1 


5.0 


11.4 


- baseline + MLLR 


4.3 


8.9 


7.3 


13.6 


5.1 


11.1 


3.6 


9.4 


5.1 


10.8 


- "confusion phonétqiue" + MLLR 


3.2 


7.6 


4.9 


11.4 


3.2 


7.8 


2.1 


6.1 


3.3 


8.2 


"confusion phonétqiue" 






















+ constraintes graph. + 


3.0 


7.3 


5.1 


11.7 


2.8 


6.0 


2.5 


6.8 


3.4 


8.0 


MLLR 






















grammaire libre : 






















- baseline 


37.7 


47.9 


45.5 


52.0 


39.9 


53.5 


36.7 


40.0 


40.0 


50.7 


- "confusion phonétqiue" 


27.8 


42.6 


28.9 


44.9 


27.1 


43.0 


20.1 


34.0 


26.0 


41.1 


- "confusion phonétqiue" + 
contraintes graphémiques 


25.6 


41.0 


26.7 


43.2 


25.2 


40.8 


18.6 


33.0 


24.0 


39.5 


- baseline + MLLR 


28.4 


39.4 


34.9 


46.5 


32.3 


48.3 


28.5 


41.0 


32.2 


42.7 


- "confusion phonétqiue" + MLLR 


22.9 


37.0 


24.7 


40.9 


24.0 


39.5 


17.1 


30.1 


22.2 


36.9 


"confusion phonétqiue" 






















+ contraintes graph. + 


20.9 


35.0 


22.7 


39.3 


21.0 


36.3 


16.0 


29.2 


20.1 


35.0 


MLLR 
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5 Conslusion 

Dans cet article, nous avons décrit notre méthode d'adaptation de système automatique 
de reconnaissance vocale vis-à-vis de la parole non native. La confusion phonétique que nous 
avons mis au point associe à chaque phonème de la langue parlée un ensemble de suites 
de phonèmes de la langue maternelle. Chacune de ces suites représente une prononciation 
alternative spécifique à la langue maternelle traitée. Nous avons également présenté une 
approche originale pour inclure ces prononciations sans perte de performances de calcul. 
Nous avons enfin décrit une méthode pour l'adjonction de contraintes graphèmiques à la 
confusion phonétique. 
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